Search CORE

14 research outputs found

Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU

Author: Aisyah Nurul
Baldwin Timothy
Koto Fajri
Li Haonan
Publication venue
Publication date: 21/10/2023
Field of study

Although large language models (LLMs) are often pre-trained on large-scale multilingual texts, their reasoning abilities and real-world knowledge are mainly evaluated based on English datasets. Assessing LLM capabilities beyond English is increasingly vital but hindered due to the lack of suitable datasets. In this work, we introduce IndoMMLU, the first multi-task language understanding benchmark for Indonesian culture and languages, which consists of questions from primary school to university entrance exams in Indonesia. By employing professional teachers, we obtain 14,981 questions across 64 tasks and education levels, with 46% of the questions focusing on assessing proficiency in the Indonesian language and knowledge of nine local languages and cultures in Indonesia. Our empirical evaluations show that GPT-3.5 only manages to pass the Indonesian primary school level, with limited knowledge of local Indonesian languages and culture. Other smaller models such as BLOOMZ and Falcon perform at even lower levels.Comment: Accepted at EMNLP 202

arXiv.org e-Print Archive

Bactrian-X : A Multilingual Replicable Instruction-Following Model with Low-Rank Adaptation

Author: Aji Alham Fikri
Baldwin Timothy
Koto Fajri
Li Haonan
Wu Minghao
Publication venue
Publication date: 24/05/2023
Field of study

Instruction tuning has shown great promise in the field of natural language processing. However, the research on multilingual instruction tuning has been limited due to the scarcity of high-quality instruction-response datasets. To address this gap, we present Bactrian-X, a comprehensive multilingual parallel dataset of 3.4 million instruction-response pairs across 52 languages. Leveraging this dataset, we train a set of adapters using low-rank adaptation (LoRA), which are lightweight components seamlessly integrated with foundational models. These adapters have a significantly smaller parameter count than the base model, making them easily replaceable and usable as plug-ins for different languages or language groups. Through extensive experiments on 52 languages, we demonstrate the superior performance of our models in various multilingual evaluation settings. Our proposed models outperform both the vanilla models and the existing instruction-tuned models. The code and models are publicly available at https://github.com/mbzuai-nlp/bactrian-x

arXiv.org e-Print Archive

NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages

Author: Adhista Dea
Aji Alham Fikri
Akbar Salsabil Maulana
Cahyawijaya Samuel
Cenggoro Tjeng Wawan
Dave Emmanuel
Fung Pascale
Koto Fajri
Lee Jhonson
Linuwih Hanung Wahyuning
Lovenia Holy
Moeljadi David
Muridan Galih Pradipta
Oktavianti Sarah
Purwarianti Ayu
Shadieq Nuur
Wilie Bryan
Winata Genta Indra
Publication venue
Publication date: 19/09/2023
Field of study

Democratizing access to natural language processing (NLP) technology is crucial, especially for underrepresented and extremely low-resource languages. Previous research has focused on developing labeled and unlabeled corpora for these languages through online scraping and document translation. While these methods have proven effective and cost-efficient, we have identified limitations in the resulting corpora, including a lack of lexical diversity and cultural relevance to local communities. To address this gap, we conduct a case study on Indonesian local languages. We compare the effectiveness of online scraping, human translation, and paragraph writing by native speakers in constructing datasets. Our findings demonstrate that datasets generated through paragraph writing by native speakers exhibit superior quality in terms of lexical diversity and cultural content. In addition, we present the \datasetname{} benchmark, encompassing 12 underrepresented and extremely low-resource languages spoken by millions of individuals in Indonesia. Our empirical experiment results using existing multilingual large language models conclude the need to extend these models to more underrepresented languages. We release the NusaWrites dataset at https://github.com/IndoNLP/nusa-writes

arXiv.org e-Print Archive

KESERASIAN SOSIAL DAN POLITIK DALAM MASYARAKAT “BERBILANG KAUM” DI KOTA SIBOLGA

Author: Akbar Machmul
Alam Sani Fajri
Alwi Ahmad
Bukhori Ahmad
Daulay Delfina
Dodi Saputra Muhammad
Fadillah Anggun
Fuady Dharma Harahap Andes
Halimatussakdiyah Halimatussakdiyah
Hasibuan Nadia
Husein Nst Ahmad
Isnaini Harahap Fitri
Khoiruddin Khoiruddin
Lestari Koto Putri
Pulungan Darmasyah
Pulungan Nurpadilah
Riski Ananda Ihwan
Salamah Siti
Sandi Gunawan
Sari Novila
Sauri Nasution Sofyan
Sihombing Novi
Silviyani Siregar Sindi
Simatupang Juliana
Sukma Dewi
Publication venue: Universitas Muhammadiyah Tapanuli Selatan
Publication date: 05/02/2024
Field of study

Tujuan penelitian ini untuk melihat sejauh mana implementasi konstruksi keragaman masyarakat Indonesia di Kota Sibolga yang dikenal sebagai “Negeri Berbilang Kaum”.Metode yang digunakan dalam penelitian ini adalah jenis penelitian deskriptif dengan pendekatan kualitatif. Hasil penelitian menunjukkan, bahasa pesisir sebagai bahasa pemersatu diantara etnis yang berbeda, sehingga keberadaan bahasa pesisir tersebut dapat mendukung terciptanya masyarakat yang serasi dan rukun. Kondisi keserasian sosial ini juga terlihat dari adanya Adat Sumando sebagai adat pemersatu dalam setiap perkawinan yang dilakukan. Adat Sumando adalah pertambahan atau percampuran satu keluarga dengan keluarga lain yang seagama, yang diikat dengan tali pernikahan menurut hukum Islam dan disahkan dengan suatu acara adat Pesisir. Adat ini merupakan campuran dari hukum Islam, adat Minangkabau, dan adat Batak. Keberadaan Adat Sumando inilah yang membuat kota ini menjadi lebih unik, dimana ketika etnis Batak yang sudah masuk ke dalam Adat Sumando yang notabene beragama Islam, maka marga yang ada tetap dipakai. Hal inilah membuat masyarakat yang bermarga Batak tetapi beretnis Pesisir. Dari hasil penelitian ini juga menunjukan bahwa ada beberapa faktor pendukung terciptanya keserasian sosial dalam masyarakat multi etnis di Kota Sibolga sebagai berikut: Pertama; faktor historis, dimana sejak berdirinya kota ini telah ramai di kunjungi oleh pendatang dari berbagai daerah dan beragam etnis yang terjalin dalam interaksi sosial yang harmonis sehingga menjadikan kota ini sebagai kota yang dinamis dan terbuka serta menjadi kota yang mapan dalam mengelola masyarakat yang harmonis dalam keberagaman (harmony in diversity). Kedua; faktor adaptasi, dimana kemampuan masyarakat yang tinggal di kota ini dalam menguasai bahasa Pesisir dalam berinteraksi sehari-hari, sehingga kemampuan adaptif inilah yang membuat masyarakat hidup serasi dan rukun. Ketiga; faktor demografi dan pola pemukiman, dimana dengan kepadatan penduduk yang cukup tinggi di kota ini mengakibatkan pola pemukiman membaur yang cenderung meniadakan garis pemisah (border line) atau mereduksi komunikasi yang terbatas, sehingga dapat meningkatkan interaksi dan kontak sosial yang semakin intens

Portal Jurnal Universitas Muhammadiyah Tapanuli Selatan